57 research outputs found

    Distributed Bayesian Matrix Factorization with Limited Communication

    Full text link
    Bayesian matrix factorization (BMF) is a powerful tool for producing low-rank representations of matrices and for predicting missing values and providing confidence intervals. Scaling up the posterior inference for massive-scale matrices is challenging and requires distributing both data and computation over many workers, making communication the main computational bottleneck. Embarrassingly parallel inference would remove the communication needed, by using completely independent computations on different data subsets, but it suffers from the inherent unidentifiability of BMF solutions. We introduce a hierarchical decomposition of the joint posterior distribution, which couples the subset inferences, allowing for embarrassingly parallel computations in a sequence of at most three stages. Using an efficient approximate implementation, we show improvements empirically on both real and simulated data. Our distributed approach is able to achieve a speed-up of almost an order of magnitude over the full posterior, with a negligible effect on predictive accuracy. Our method outperforms state-of-the-art embarrassingly parallel MCMC methods in accuracy, and achieves results competitive to other available distributed and parallel implementations of BMF.Comment: 28 pages, 8 figures. The paper is published in Machine Learning journal. An implementation of the method is is available in SMURFF software on github (bmfpp branch): https://github.com/ExaScience/smurf

    Bayesläiset menetelmät diskriminatiivisessa ja generatiivisessa luokittelussa

    Get PDF
    Only abstract. Paper copies of master’s theses are listed in the Helka database (http://www.helsinki.fi/helka). Electronic copies of master’s theses are either available as open access or only on thesis terminals in the Helsinki University Library.Vain tiivistelmä. Sidottujen gradujen saatavuuden voit tarkistaa Helka-tietokannasta (http://www.helsinki.fi/helka). Digitaaliset gradut voivat olla luettavissa avoimesti verkossa tai rajoitetusti kirjaston opinnäytekioskeilla.Endast sammandrag. Inbundna avhandlingar kan sökas i Helka-databasen (http://www.helsinki.fi/helka). Elektroniska kopior av avhandlingar finns antingen öppet på nätet eller endast tillgängliga i bibliotekets avhandlingsterminaler.Tilastollisessa luokittelussa kiinnostuksen kohteena oleva havaintoyksikkö sijoitetaan tätä kuvaavien havaittujen ominaisuuksien perusteella johonkin luokkaan. Esim. sähköpostiohjelmien roskapostisuodattimet hyödyntävät luokittelumenetelmiä luokitellessaan viestit näiden sisällön perusteella joko roskapostiksi tai ”oikeaksi” sähköpostiviestiksi. Tässä työssä taas tarkastellaan lääketieteellistä sovellusta, jossa potilaan terveydentilaa koskevien tietojen perusteella pyritään päättelemään onko potilaalla jokin määrätty sairaus vai ei. Luokitelussa käytettävä luokittelumalli estimoidaan luokiteltavan havaintoyksikön kanssa samasta perusjoukosta olevasta, valmiiksi luokitellusta aineistosta, jota kutsutaan opetusaineistoksi. Luokittelumalleja voidaan muodostaa monin eri tavoin. Tässä työssä käsiteltävät mallit perustuvat havaintoyksikön ominaisuuksille ehdollistetun, luokkamuuttujan ehdollisen jakauman mallintamiseen. Luokittelija sijoittaa tällöin havaintoyksikön luokkaan, jonka ehdollinen todennäköisyys on suurin. Ehdollisiin todennäköisyyksiin perustuvat luokittelijat voidaan muodostaa joko diskriminatiivisesti tai generatiivisesti. Edellisessä estimoidaan suoraan luokkamuuttujan ehdollista jakaumaa vastaava malli kun taas jälkimmäisessä estimoidaan ensin havaintoyksikön ominaisuuksia kuvaavien muuttujien sekä luokkamuuttujan yhteisjakaumaa vastaava malli, josta etsitty ehdollinen jakauma saadaan käyttämällä Bayesin kaavaa. Tutkimuksessa tarkastellaan binääriseen luokitteluun soveltuvaa, diskriminatiivisesti muodostettavaa logistista regressiota sekä naiivia Bayes-luokittelijaa, joka tiettyjen oletusten vallitessa on tämän generatiivinen vastine. Modernissa tilastotieteessä on viime vuosina huomattavasti lisääntynyt ns. bayesläisten menetelmien käyttö. Ominaista näille menetelmille on kaiken tilastollisen epävarmuuden ilmaiseminen todennäköisyysjakaumien avulla. Tässä työssä tutkitaan kokeellisesti bayesläisen lähestymistavan vaikutusta naiivin Bayes-luokittelijan ja logistisen regressiomallin luokitustarkkuuteen. Tämän lisäksi tarkastellan diskriminatiivisten ja generatiivisten luokittelumallien välisiä eroja ja arvioidaan opetusaineiston koon vaikutusta näiden luokituskykyyn. Luokittelumallien vertailussa käytetään Tampereen yliopistollisesta sairaalasta peräisin olevaa aineistoa, joka koostuu sepelvaltimovarjoainekuvattujen potilaiden terveydentilaa koskevista tiedoista. Luokitustarkkuudeltaan generatiivinen luokittelija oli diskriminatiivista luokittelijaa parempi, joskin erot pienenivät mitä suuremmaksi opetusaineiston kokoa kasvatettiin. Tämä on sopusoinnussa kirjallisuudessa esitetyn tuloksen kanssa, jonka mukaan generatiiviset luokittelijat ovat diskriminatiivisia luokittelijoita tarkempia juuri pienillä opetusaineistoilla kun taas jälkimmäiset ovat tarkempia suurilla opetusaineistoilla. Bayesläisen lähestymistavan soveltaminen paransi jossain määrin kummankin mallin luokituskykyä etenkin pienimmillä opetusaineistoilla

    Federated Stochastic Gradient Langevin Dynamics

    Get PDF
    Publisher Copyright: © 2021 37th Conference on Uncertainty in Artificial Intelligence, UAI 2021. All Rights Reserved.Stochastic gradient MCMC methods, such as stochastic gradient Langevin dynamics (SGLD), employ fast but noisy gradient estimates to enable large-scale posterior sampling. Although we can easily extend SGLD to distributed settings, it suffers from two issues when applied to federated non-IID data. First, the variance of these estimates increases significantly. Second, delaying communication causes the Markov chains to diverge from the true posterior even for very simple models. To alleviate both these problems, we propose conducive gradients, a simple mechanism that combines local likelihood approximations to correct gradient updates. Notably, conducive gradients are easy to compute, and since we only calculate the approximations once, they incur negligible overhead. We apply conducive gradients to distributed stochastic gradient Langevin dynamics (DSGLD) and call the resulting method federated stochastic gradient Langevin dynamics (FSGLD). We demonstrate that our approach can handle delayed communication rounds, converging to the target posterior in cases where DSGLD fails. We also show that FSGLD outperforms DSGLD for non-IID federated data with experiments on metric learning and neural networks.Peer reviewe

    Modelling-based experiment retrieval: A case study with gene expression clustering

    Get PDF
    Motivation: Public and private repositories of experimental data are growing to sizes that require dedicated methods for finding relevant data. To improve on the state of the art of keyword searches from annotations, methods for content-based retrieval have been proposed. In the context of gene expression experiments, most methods retrieve gene expression profiles, requiring each experiment to be expressed as a single profile, typically of case vs. control. A more general, recently suggested alternative is to retrieve experiments whose models are good for modelling the query dataset. However, for very noisy and high-dimensional query data, this retrieval criterion turns out to be very noisy as well. Results: We propose doing retrieval using a denoised model of the query dataset, instead of the original noisy dataset itself. To this end, we introduce a general probabilistic framework, where each experiment is modelled separately and the retrieval is done by finding related models. For retrieval of gene expression experiments, we use a probabilistic model called product partition model, which induces a clustering of genes that show similar expression patterns across a number of samples. The suggested metric for retrieval using clusterings is the normalized information distance. Empirical results finally suggest that inference for the full probabilistic model can be approximated with good performance using computationally faster heuristic clustering approaches (e.g. kk-means). The method is highly scalable and straightforward to apply to construct a general-purpose gene expression experiment retrieval method. Availability: The method can be implemented using standard clustering algorithms and normalized information distance, available in many statistical software packages.Comment: Updated figures. The final version of this article will appear in Bioinformatics (https://bioinformatics.oxfordjournals.org/
    corecore